#eficiencia de decodificación

Solo indexas una vez: atención dispersa entre capas con enrutamiento compartido

Optimiza la inferencia de LLMs con CLSA: atención dispersa entre capas que comparte índices de enrutamiento, logrando hasta 7.6x de aceleración en decodificación.

2026-06-05 · 3 min